RegionCLIP: Region-based Language-Image Pretraining
https://gyazo.com/01321d31bb6357228246b26b5d849e7b
問題点: CLIPは画像全体を用いるため, 物体検出には向かない そこで, 本論文ではCLIPをRegion-text matchingへと拡張した open-vocabulary object detection
関連研究としてViLDを挙げている
CVPR22
https://gyazo.com/1e49a59351ff227425566e5b2fac92af
流れ
RPN(Resion Proposal Network)を用いて候補領域を探す RPNはBBOXのみ(ラベルなし)のアノテーションがなされたデータセットで事前学習されたものを使用
なのでRPNの学習はlossには組み込まれていない
Pretrain
検出領域と言語の特徴量ペア$ (v,l)について,
$ L_{cntrst} = \frac{1}{N} \sum_{i} -\log(p(v_i,l_m))
$ p(v_i,l_m) = \frac {\exp(S(v_i, l_m)/\tau)} {\exp(S(v_i, l_m)/\tau) + \sum_{k\in \mathcal{N}_{r_i}} \exp(S(v_i, l_k)/\tau)}
$ L_{dist} = \frac{1}{N} \sum_{i} L_{KL}(q^t_{i}, q_i),
$ L_{cntrst}を画像全体に拡張したバージョンを$ L_{cntrst-img}とする
最終的なlossは以下の通り
$ L = L_{cntrst} + L_{dist} + L_{cntrst-img}.
結果
めっちゃいい感じ
https://gyazo.com/4cd9e9463c52b8368faf187ec12d40a3
https://gyazo.com/1f51f346f77a4575a9b190cd3a8e4221